Perturbed Masking:和参数无关的预训练模型分析方法
©PaperWeekly 原创 · 作者|蔡杰
学校|北京大学硕士生
研究方向|问答系统
论文标题:
Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT
论文来源:
ACL 2020
论文链接:
https://arxiv.org/abs/2004.14786
代码链接:
https://github.com/Frank-Smith/Perturbed-Masking
引言
本文是一篇分析 BERT 模型的文章。通常分析 BERT 的时候研究人员会设计一些 probing 任务,并通过 BERT 的每一层参数来尝试解决这些任务,如果某一层能够很好的解决某一任务,那就说明 BERT 在这一层是学到了和该任务相关的语言学信息的。
论文贡献
作者提出了一种和参数无关的分析预训练模型的方法:Perturbed Masking, 该方法能够分析预训练模型中词与词之间的关系,使全局的句法信息提取成为可能。
作者在多个 NLP 任务中验证了他们方法的有效性(e.g., syntactic parsing, discourse dependency parsing)。
作者还将他们从预训练模型中提取出来的句法结构应用到下游任务中,发现作者他们提取句法信息的性能与解析器创建的句法信息相当、甚至更好。这为发掘 BERT 在下游任务上取得的成功提供了一个视角。
作者提出了利用扰动掩蔽技术(Perturbed Masking)来评估 MLM 中一个词对另一个词的影响。
80% 的概率替换为 [MASK] 标记
10% 的概率用随机选择的一个词替换
10% 的概率保持不变
第一种 Dist 就是计算两个 embedding 之间的欧式距离。第二种 Prob 需要先把 embedding 映射成关于词表的一个分布,然后对于同一个词的概率相减。
通过重复以上方法,可以得到一个 Impact Matrix,从这个矩阵中我们就可以得到句法树。
3.3 Span Perturbation
作者在 token-level 之后,还扩展到了 span-level(包括短语、句子和段落)。
作者从 CoNLL 2017 共享任务的 PUD treebank 数据集中向 BERT 输入了 1000 个句子,从而提取 Impact Matrix 。图 1 展示了一个示例矩阵。
从图中我们可以注意到矩阵图包含许多位于对角线上的深色条纹。以 different 一词为例(倒数第二列)。在主对角线上观察到一条清晰的垂直深色条纹。作者对此的解释是, different 这个词的出现剧烈地影响了它之前那些词的出现。
根据图一的 Matrix,作者抽取出来的句法树,可以看到效果还是很不错的。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。